查看原文
其他

落入窠臼

2017-03-05 Y叔 biobabble

首先,丢弃未注释的基因对p值的影响大吗?
其次,这个p值有决定性作用吗?

所谓第二点

我从没讲过这第二点,我觉得这没啥好说的,p值不是决定性的,我认同,但这里讲这个有诱导性,我们将其做为一个指标(可以有好多个指标)来参考,必须要保证指标计算的准确性,这是我一直强调的,如果说准确性不重要,那不如瞎蒙。

p值计算的准确性

很明显,kegg数据库的过滤,对背景基因和差异基因的效果是一样一样的!!!
本来是300个差异基因,背景是hgu95av2芯片涉及到的8596个基因!
如果用2011.03.15版本的kegg的基因进行过滤,那么差异基因就只有130个了,背景基因也相应的减少到3802个!!!
如果用2017.03.03版本的kegg的基因进行过滤,那么差异基因就只有150个了,背景基因也相应的减少到4392个!!!
我们有理由相信,随着时间的前进,总有一天,差异基因和背景基因,都不会被过滤了,因为他们被注释完全了!!!
现在过滤,只是因为kegg这个数据库收录的基因很有限而已,到目前为止也就7234个基因!!!

这个犯了基本性的错误,我在上一文第二种情况里讲了,随机不适用于基因列表,试想一下,你做个2d gel,挖出来的差异蛋白点就跟瞎蒙一样?你IP拉下来的蛋白全是非特异性结合(即便如此,也不是随机的),这可能吗?我们在基因池子里钓鱼,我们的鱼饵只有某些鱼会吃,这种情况下,和你拿个网捞鱼必然是不同的。

背景8596个基因里,4392个有注释,然后随机抽出300,有一半有注释,这再正常不过了,又是随机,又是大样本,必然能反映出总体。你何不抽它1000次,画个分布出来证明!完全把自己给绕进去了。

在我说第二种情况时,就说了,其前提条件是随机,随后批了这不可能。其实我还没批完第二种情况呢,所谓第二种情况在成立的条件下,p值差别不大,是相对于第一种情况,有几个数量级的差别。然而第二种情况,即使真是随机,p值的差别你们难道觉得无所谓?三种情况,属于、不属于和不知道,分别可以说是true, false, NA,不过滤的做法,其实是把NA全当成false了,这问题太明显了,不可能全是false,是不是false的比例对于不同的pathway来说也不一样!而具体情况是,NA的东西,它就是NA,鬼知道。

本身知识注释有bias,这是无法回避的现实,然后在计算p值上面,还想当然搞了浑水,再加一层不可捉摸的(姑且也称之为)bias,然后说反正p值也不是决定性的,你干嘛不去瞎蒙!


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存